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新 时 代 人 民 上 日 报 分 词语 料 库 构建 性 能 及 应 用 (一 ) 
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摘要 : [目的 /意义 ] 构建 与 新 时 代 相 适应 的 人 民 日 报 分 词语 料 库 ,为 中 文 信息 处 理 提供 最 新 的 精 标注 语 
料 ,也 为 从 历时 的 角度 分 析 现 代 汉 语 提 供 新 的 语言 资源 。[ 方 法 /过 程 ] 在 分 析 已 有 汉语 分 词语 料 库 的 基础 上 ， 
描述 所 构建 新 时 代 人 民 日 报 语料库 的 数据 源 、 标 注 规范 和 流程 ,通过 构建 分 词 自动 标注 模型 测评 语料库 的 性 
能 ,并 与 已 有 语料库 进行 对 比 。[ 结果 /结论 ] 新 时 代 人 民 日 报 语 料 库 遵循 现代 汉语 语料库 基本 加 工 规范 ,规模 
大 ,时 间 跨 度 长 。 选 取 其 中 的 2018 年 1 月 部 分 ,基于 条 件 随机 场 构 建 分 词 模型 ,与 1998 年 1 月 人 民 日 报 语 料 进 
行 性 能 测评 与 对 比 , 所 得 到 的 各 项 具体 测评 指标 表明 ,新 时 代 人 民 上 日报 语 料 整 体 性 能 突出 ,1998 年 语 料 无 法 葵 


全 当前 构建 该 语料库 非常 必要 。 
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条 件 随机 场 模型 


语料库 NEPD 


语料库 是 由 人 工 或 机 天 标注 好 的 真实 语言 材料 组 
成 的 数据 集 。 开 展 与 自然 语言 相关 的 研究 ,语料库 是 
有 效 的 工具 和 和 手段。 依据 语料库 既 可 以 研究 语言 普遍 
规律 也 可 以 针对 具体 文本 开展 研究 。 汉 语 比 其 他 语种 


日 报 语 料 ,在 词汇 的 时 效 性 完备 性 和 和 覆盖 度 上 均 需 要 
进行 更 新 、 补 充 和 增加 。 在 这 一 背景 下 ,笔者 以 2015 
至 2018 年 4 人 民 日 报 》 发 表 的 文章 为 对 象 ,构建 了 新 版 
的 人 民 日 报 分 词语 料 。 因 为 新 版 语料库 收录 的 全 部 是 
进入 新 世纪 以 后 的 6 人 民 上 日报》 文章 ,而且 均 为 2012 年 
以 后 即 中国 特 色 社 会 主义 进入 新 时 代 以 后 的 文章 ,为 


的 久 然 语言 处 理 多 自动 分 词 环节 ,汉语 自动 分 词 是 
切 晶 文 信息 处 理 的 基础 ,汉语 分 词 质量 的 好 坏 直 接 决 
定 吕 词性 标注 .实体 抽取 自动 句 法 分 析 和 机 器 翻译 等 
其 他 中 文 信息 处 理 任务 的 性 能 。 目 前 中 文 自动 分 词 的 
主流 技术 是 机 器 学 习 , 即 通过 机 器 学 习 模型 从 精 加 工 
的 语 料 中 自动 学 习 词汇 的 分 布 特征 和 知识 ,进而 完成 
对 汉语 字符 串 中 词汇 的 自动 识别 ,分 词语 料 库 是 汉语 
语料库 中 最 重要 的 类 型 之 一 。 虽 然 在 同一 语料库 上 基 
于 不 同 的 机 器 学 习 模型 可 以 构建 不 同 的 分 词 模型 ,但 
整体 性 能 可 能 差距 并 不 是 太 大 ,反倒 是 训练 语 料 的 标 
注 精 准 度 对 分 词 结果 影响 较 大 。 在 中 文 信息 处 理 的 研 
究 中 ,训练 语 料 通常 由 通用 语 料 和 领域 语 料 组 成 。 在 
汉语 通用 语 料 方面 ,由 北京 大 学 计算 语言 研究 所 构建 
的 1998 年 人 民 日 报 语 料 最 具 代 表 性 ,影响 力也 最 大 。 
但 是 , 随 着 时 间 的 推移 ,1998 年 所 构建 的 精 加 工人 民 


区 别 于 北京 大 学 的 1998 年 人 民 日 报 语 料 , 将 该 语 料 命 
名 为 新 时 代 人 民 日 报 语 料 (New Era People’ s Daily 
Segmented Corpus ,简称 NEPD,NEPD 语 料 或 NEPD i& 
料 库 ) 。 目 前 NEPD 已 涵盖 了 《4 人民 日 报 》2015 上 半年 
(1-6 月 ) 及 2016 年 1 月 2017 年 1 月 2018 年 1 月 共 
9 个 月 的 语 料 。 为 促进 语 料 资源 的 开放 和 共享 ,NEPD 
的 相关 语 料 将 对 学 界 公布 , 供 学 术 研 究 用 ,并 且 后 续 还 
将 不 断 补充 最 新 语 料 。NEPD 不 仅 具 有 动态 的 历时 
跨度 ,而 且 具 有 静态 的 语义 丰富 度 。 笔 者 将 用 一 组 
文章 分 别论 述 NEPD 的 基本 特征 、 构 建 过 程 、. 分 词性 
能 、 最 佳 分 词 模 型 ,并 基于 语 料 从 历时 的 角度 探讨 当 
代 汉 语文 本 的 句 式 特征 、 语 体 特征 。 本 文 是 其 中 的 
第 一 篇 ,介绍 新 时 代 人 民 日 报 语 料 的 构建 过 程 、 相 应 
规范 和 原则 ,基于 条 件 随机 场 构建 分 词 模型 测评 并 
对 比 NEPD 5j 1998 年 1 月 人 民 日 报 语 料 的 性 能 。 结 
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果 对 比 表明 ,NEPD 用 于 处 理 近 年 发 表 的 4 人 民 日 报 》 
文章 时 性 能 明显 优 于 1998 年 人 民 日 报 语 料 , 构 建 
NEPD 非常 必要 。 


2 汉语 分 词语 料及 分 词 模型 现状 分 析 
通用 汉语 分 词语 料 中 , 具 代表 性 ,影响 力 大 的 首先 


是 北京 大 学 的 人 民 日 报 分 词语 料 。 该 语料库 目前 发 布 
出 来 的 主要 是 1998 年 1 月 的 人 民 日 报 语 料 , 由 俞 士 汶 
先生 带领 北京 大 学 计算 语言 研究 所 的 研究 人 员 完 成 。 
该 语料库 的 研制 过 程 中 还 提出 了 标注 规范 ,并 研究 了 
检索 方法 "“。 其 次 是 国家 语 委 现代 汉语 通用 平衡 语 
料 库 ,该 语料库 的 突出 特征 是 平衡 性 和 规模 大 ,不 仅 具 
有 新 闻 语 料 而 且 涵盖 了 经 济 ,军事 ,体育 等 不 同 领 域 的 


进行 词性 标注 。 

常用 的 汉语 分 词 机 器 学 习 模 型 主要 有 隐 马 尔 科 夫 
TRA EK AIE , .条件 随 机 场 模型 ( Conditional. Ran- 
dom Fields, CRFs) 。 在 这 3 种 模型 中 ,由 于 条 件 随 机 
场 不 仅 解决 了 独立 性 假设 和 标记 偏 置 的 问题 而 且 在 模 
型 训练 的 过 程 中 能 够 任意 添加 特征 知识 ,所 以 该 模型 
成 为 了 汉语 分 词 的 主流 技术 ,比较 有 代表 性 的 研究 如 
C. Huang“! 对 1997 年 — 2007 年 的 中 文 分 词 进展 进行 
了 回顾 ,指出 相 较 于 手工 规则 的 分 词 方法 ,统计 学 习 的 
分 词 方法 在 前 者 难以 解决 的 未 登录 词 问题 上 取得 了 较 
大 突破 ,是 当时 的 最 优 解 ,另外 ,该 作者 还 强调 了 公开 
测评 数据 集 的 重要 性 ; 与 将 特征 函数 定义 为 二 值 函 数 
的 方法 不 同 , 李 双龙 等 ”将 特征 函数 定义 为 任意 实数 


素 林 ”。 再 次 是 清华 汉语 书库 中 的 分 词语 料 , 该 分 词 
语 料 的 突出 特征 是 基于 黎 锦 照 先生 的 “ 凡 词 , 依 句 关 
中: 离 句 无 品 "的 语言 学 理论 实现 对 汉语 分 词 的 中。 最 
局 是 宾 州 汉语 树 库 中 的 分 词语 料 , 该 分 词语 料 库 的 突 
焉 征 是 按照 结构 主义 语言 学 的 理论 完成 对 汉语 分 词 
GET, 在 上述 4 种 汉语 分 词语 料 中 ,前 两 种 分 词语 料 
多 履 较 大 ,所 使 用 的 分 词 理念 和 规范 具有 较 强 的 一 致 
局 但 是 , 随 着 时 间 的 推移 , 语 料 时 效 性 问题 越 来 越 突 
后 两 种 分 词语 料 所 采用 的 语言 学 理论 具有 一 定 的 
狂 尾 性 ,但 规模 上 相对 较 小 , 且 同 样 存在 语 料 时 效 性 较 
差价 问题 。 

< 基于 上 述 对 已 有 汉语 分 词语 料 库 应 用 现状 及 性 能 
的 闪 析 ,笔者 选取 2015 - 2018 年 之 间 共 9 个 月 的 《人 
民生 报 》 构建 新 的 汉语 分 词语 料 库 , 即 NEPD。NEPD 
的 网 建 理由 .目标 及 基本 思路 是 :从 时 间 上 看 ,中 国 
经 过 20 年 的 快速 发 展 ,1998 年 所 构建 的 人 民 日 报 语 料 
库 无 论 是 在 词汇 的 丰富 性 方面 还 是 覆盖 度 方面 均 不 能 
反映 当下 社会 的 概貌 ,需要 更 新 和 完善 ;四 (人 民 日 
报 》 在 国内 外 具有 很 大 的 影响 力 《 人 民 日 报 》 的 文章 
是 最 为 规范 和 标准 的 现代 汉语 ,上 且 内 容 与 各 时 期 的 中 
央 精 神 保持 高 度 一 致 , 故 仍然 选取 《 人民 日 报 》 作 为 语 
料 库 构建 的 数据 源 ;@)1998 年 人 民 日 报 语 料 在 汉语 自 
然 语言 处 理 领域 影响 力 巨 大 ,以 最 新 的 (人 民 日 报 ) 为 
数据 源 构建 新 语料库 , 既 延 续 了 前 人 的 成 果 , 也 便于 开 
展 持 续 性 的 研究 ;@《 人 民 日 报 》 将 持续 出 版 ,今后 可 
以 将 新 文章 不 断 补充 到 语料库 , 扩充 NEPD, 使 得 
NEPD 能 够 与 时 俱 进 ,形成 能 满足 时 效 性 要 求 的 实用 
型 大 规模 现代 汉语 语料库 ;@ 相 较 于 汉语 词汇 的 界定 ， 
语言 学 界 目 前 对 于 汉语 词性 的 数量 和 分 类 标准 没有 达 
成 一 致 的 标准 和 规范 ,因此 NEPD 只 实现 汉语 分 词 ,不 
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值 函 数 从 而 减少 了 特征 的 数量 、 降 低 特征 选择 的 复杂 
度 , 在 1st SIGHAN 测试 集 上 封闭 测试 的 了 (EO 
95.2% ; 沈 勤 中 等 ”从 字 的 构 词 能 力 角 度 出 发 ,在 基础 
特征 的 基础 上 加 入 字 的 位 置 概率 特征 ,实验 证 明 该 特 
征 的 引入 使 Fl 值 提 高 了 3.5% ,达到 94.5% ;人 述 呈 英 
等 在 SIGHAN2006 Bakeoff 的 Uppen , Msra 两 种 语 料 
的 封闭 测试 中 准确 率 分 别 达 到 了 95. 896 和 95.9% , 同 
时 也 指出 条 件 随机 场 模型 对 多 字符 未 登录 词 的 切 分 效 
果 不 佳 ; 宋 彦 等 ”提出 将 字 、 词 信息 融合 的 中 分 分 词 
方法 ,将 条 件 随机 场 模型 和 Bi-gram 语言 模型 融 为 一 
体 , 并 在 Bakeoff3 上 进行 封闭 验证 。 最 终 混合 模型 效 
果 优 于 单一 模型 ,F 值 达到 93.9% ; 刘 泽 文 等 "提出 5 
- Tag 标记 方法 ,实验 首先 采用 LCCRF 模型 应 用 于 中 
文 短 文本 ,在 此 基础 上 利用 词典 对 初步 分 词 结果 进行 
修正 ,在 Sighan bakeoff 2005 的 4 个 语 料 测试 集 上 平均 
F 值 超过 95% ,他 们 的 实验 表明 ,加 入 不 合适 的 特征 
不 但 会 导致 标注 结果 的 下 值 下 降 , 时 间 复 杂 度 和 空 
间 复 杂 度 的 上 升 也 更 为 明显 ; 冯 雪 "利用 词典 信息 
设计 了 一 种 基于 统计 的 模型 ,将 词典 特征 融入 字 的 
序列 标注 模型 和 词 的 柱 搜索 模型 中 ,在 同 领域 和 跨 
领域 中 取得 较 好 的 性 能 ; 王 若 佳 等 结合 国内 权威 
词典 .官方 标准 和 医学 补充 词 库 构建 了 10 万 数量 级 
的 医学 辞典 ,对 电子 病历 进行 分 词 ,实现 了 基于 条 件 
随机 场 的 实体 识别 ,F 值 达到 82% 的 效果 ,并 对 识别 
效果 进行 了 分 析 。 

由 于 条 件 随机 场 模 型 应 用 于 分 词 这 样 的 线性 序列 
任务 性 能 较 好 ,本 文选 择 条 件 随机 场 模型 ,以 所 选取 的 
NEPD 语 料 为 基础 构建 分 词 模型 。 同 时 ,从 评测 所 构 
建 的 NEPD 语料库 的 性 能 角度 看 ,应 用 条 件 随机 场 构 
建 的 分 词 模型 便于 将 基于 2018 年 1 月 人 民 日 报 语 料 
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构建 的 分 词 模型 与 基于 1998 年 1 月 人 民 日 报 语 料 构 
建 的 模型 进行 性 能 对 比 。 


3 ” 语 料 获 取 及 预 处 理 


NEPD 的 原始 语 料 从 人 民 日 报 》 图 文 数据 全 文 检 
索 系统 下 载 得 到 。 所 谓 原始 语 料 , 是 指 未 进行 任何 标 
注 的 \ 从 文本 中 获取 的 语言 符号 的 字符 序列 。 为 保证 
NEPD 语料库 在 词汇 上 的 覆盖 度 和 历时 性 ,NEPD 的 原 
台 语 料 下 载 了 《人 民 日 报 》2015 4£ 1 -6 H 2016 4£ 1 
H 2017 4E 1 H 2018 年 1 月 总 共 9 个 月 的 全 部 文章 。 
所 获取 的 数据 源 截图 样 例如 图 1 所 示 : 
iniu. A — — 
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图 1 所 获取 的 4 人 民 日 报 》 数 据 源 截图 样 例 


.原始 语 料 获取 的 具体 流程 如 下 :@O 确 定 所 要 获取 
的 人民 日 报 ) 原 始 语 料 的 时 间 段 ,并 组 织 人 力 把 时 间 
稀 所 出 版 的 [人民 日 报 》 的 全 部 文章 从 (人 民 日 报 》 图 
文 里 据 全 文 检索 系统 中 下 载 下 来 ;把 所 获得 的 全 
部 原始 语 料 统一 以 文本 文件 形式 存储 ,并 保持 (人民 
昌 眠 》 原 有 的 段落 和 格式 ,以 方便 人 工 对 原始 语 料 进 
行 分 词 加 工 和 标注 ;@ 把 所 有 文本 文件 统一 按 月 组 
织 在 一 起 ,形成 给 定时 间 段 的 完整 《人 民 日 报 ) 原 始 
语 料 。 

针对 所 获取 的 《人 民 日 报 》 原 始 语 料 ,还 需要 对 数 
据 做 某 些 预 处 理 :@ 需 要 删除 其 中 不 属于 (人民 日 报 》 
正文 的 内 容 。 人 工 复制 的 过 程 中 会 把 一 些 非 《 人 民 晶 
报 ) 正 文 的 内 容 复制 下 来 ,比如 “人 民 日 报 2015.01.27 
第 6 版 汉 华 ”这样 的 内 容 。 对 于 这 些 内 容 可 以 统一 用 
程序 去 除 。@ 需 要 统一 (人民 日 报 ) 原 始 语 料 的 字符 
编码 。 数 据 获 取 人 员 在 存储 所 复制 的 内 容 过 程 中 可 能 
会 使 用 不 同 的 字符 编码 ,为 了 便于 后 续 的 统一 处 理 和 
加 工 ,数据 预 处 理 过 程 中 统一 将 全 部 数据 的 编码 转化 
为 了 UTF -8 的 形式 。 如 此 ,经 过 上 述 数 据 预 处 理 后 ， 
得 到 了 待 标注 的 《< 人民 日 报 》 语 料 文本 。 具 体 样 例如 
表 1 所 示 : 
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表 1 《人 民 日 报 》 待 标注 语 料 样 例 
编号 待 标注 语 料 样 例 
1 ”有 知情 人 告诉 本 报 记者 ,建立 于 1997 年 的 证 券 交易 所 大 楼 ,在 
2002 年 时 发 生 过 恐怖 爆炸 事件 ,也 许 对 建筑 本 身 的 牢固 性 产生 
长 期 的 影响 。 
2 ”该 平台 将 整合 多国 农业 科教 系统 相关 资源 ,为 广大 农民 和 各 类 现代 
农业 生产 经 营 主体 提供 精准 ,及 时 、 全 程 顾问 式 的 科技 信息 服务 , 促 
进 农业 科技 创新 和 成 果 转 化 .新型 职业 农民 培育 ,支撑 现代 农业 的 


3 外交 部 发 言 人 华 春 莹 25 日 宣布 ,应 国务 院 总 理 李克强 道 请 ,大 不 列 
颠 及 北 爱尔兰 联合 王国 首相 特 雷 水 - 梅 将 于 1 月 31 日 至 2 月 2 日 
对 中 国 进行 正式 访问 并 举行 新 一 轮 中 英 总 理 年 度 会 晤 。 
4 易 司 卡尔 建议 ,尽管 吉 志 对 整 株 大 楼 没有 太 大 影响 ,但 如 果 大 楼 管 
理 方 仍 要 使 用 余下 的 内 部 通道 ,就 需要 对 建筑 结构 进行 加 固 处 理 ， 
应 采取 添加 支柱 等 措施 ,并 进行 全 面 安检 。 


语 料 标 注 及 规范 


为 保证 NEPD 的 标注 质量 ,需要 对 标注 人 员 进 行 


知识 .技能 和 规范 方面 的 培训 ,以 确保 标注 人 员 的 整体 
能 力 :所 有 的 标注 人 员 必 须 掌握 如 下 的 知识 :有 关 现 
代 汉 语词 汇 的 定义 ,体系 和 相关 语言 学 理论 ;分 词 在 整 
个 中 文 信息 处 理 研究 中 的 价值 和 意义 ;分 词 不 一 致 的 
定义 和 标注 ;歧义 的 基本 定义 及 组 合 型 歧义 与 交集 型 
歧义 的 区 别 。@@ 所 有 标注 人 员 必 须 掌握 自行 设计 程序 
实现 以 下 功能 的 能 力 : 词 频 统计 以 及 基于 齐 普 夫 定律 
的 词 频 分 布 规律 分 析 ; 针 对 中 文 的 最 长 匹配 分 词 算法 ; 
基于 规则 的 汉语 词汇 歧义 消解 算法 。@ 所 有 标注 人 员 
必须 系统 和 完整 地 熟 记 国家 标准 (信息 处 理 用 现代 汉 
语 分 词 规范 》( CGB/T 13715 - 92) ,并 能 基于 该 规范 中 
的 例子 举一反三 。 

对 标注 人 员 完成 上 述 知识 ,技能 和 规范 方面 的 培 
训 后 , 便 可 通过 以 下 3 个 步 又 对 经 过 预 处 理 的 《人 民 昌 
HO 原始 语 料 进行 人 工分 词 标注 。 对 于 每 一 份 原始 语 
料 的 具体 标注 步 又 如 下 :@D 第 一 组 标注 人 员 完成 对 (人 
民 日 报 》 原 始 语 料 的 词汇 切 分 。 词 与 词 之 间 切 分 标记 
用 */” 表 示 。 辟 如,“ 坚持 依法 治国 、 依 法 执政 ,依法 行 
政 共同 推 进 ,坚持 法 治国 家 、 法 治政 府 .法 治 社会 一 体 
建设 ”, 经 过 第 一 组 的 标注 后 ,结果 变 成 坚持/ 依法/ 
治国 / /依法 /执政 / /依法 /行政 /共同 /推进 /,/ 坚 持 / 
法 治 /国家 / 法治 /政府 / /法 治 /社会 /一 体 /建设 /”。 
@@ 第 二 组 标注 人 员 对 第 一 组 的 标注 结果 进行 核对 。 第 
二 组 人 员 需 重点 关注 第 一 组 标注 人 员 是 否 按照 规范 对 
标注 对 象 进行 了 标注 。 比 如 ,成 语 有 时 被 分 开标 注 了 ， 
“向 /全 党 / 提 出 / 扎 / 扎 / 实 / 实 /把 /全 会 / 提 出 /的 /各 
项 /任务 / 落 到 /实处 /的 /总 /要 求 " ,按照 标注 规范 “ 扎 
扎实 实 " 应 该 标注 为 一 个 词 ,正确 的 标注 结果 应 为 
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“向 /全 党 /提出 / 扎 扎 实 实 /把 /全 会 /提出 /的 /各 项 / 任 
务 / 落 到 /实处 /的 /总 /要 求 ” 。 吧 第 三 组 人 员 对 经 第 二 
组 标注 人 员 核 对 过 的 分 词 结 果 再 次 进行 核对 ,以 确保 
标注 结果 的 精准 性 。 

经 过 上 述 3 个 步 又 《人 民 日 报 》 原 始 语 料 实现 了 
分 词 标注 。 为 了 进一步 提升 标注 结果 的 精准 性 ,在 上 
述 3 轮 标 注 的 基础 上 ,还 须 设计 专门 的 程序 对 所 有 的 
标点 符号 进行 机 器 校对 ,因为 标注 人 员 在 标注 过 程 中 
注意 力 集中 在 汉语 词汇 上 ,容易 漏 掉 对 标点 符号 的 标 
注 。 

经 过 上 述 3 轮 标 注 和 标点 的 核对 之 后 ,最 后 得 到 
的 才 是 标注 完成 的 NEPD 语 料 。 具 体 的 标注 结果 样 例 
如 表 2 所 示 : 
-— 表 2 NEPD 语 料 标注 结果 样 例 
73 标注 结果 语 料 样 例 


a 全 面 /推进 /依法 /治国 /是 /一 /个 /系统 /工程 /,/ 是 /国家 /治理 / 领 
域 / 一 / 场 /广泛 /而 /深刻 /的 /革命 /,/ 

冰期 / 输 水 /技术 /成 熟 /,/ 严 格 /调度 /可 /在 /稳定 / 冰 盖 /下 /正常 / 
输 水 / 
利 / 节 水 /可 /承受 / / 保 / 运 行 /,/ 沿 线 /省 /市 /根据 /实际 /制订 / 
居民 /水 价 /方案 /。 

“/ 芝 麻 官 /v 千 钧 担 /。/ 作 为 /县 委 / 书 记 /,/ 肩 负 / 着 /推动 /科学 / 
@ 之 展 / /为 / 民 / 谋 利 / 造 福 / 的 /重任 /。/”/ 广 东 / 省 / 罗 定 /市 /(/ 县 
P 级 /市 /)/ 市 委 / 书 记 / 万 /木林 /说 / 
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“YNEPD 语 料 的 标注 过 程 中 ,在 涉及 以 下 几 种 情形 
众 词 标注 中 采用 了 特例 规范 :人 名 在 分 词 过 程 中 
殉 曙 姓 和 名 分 开标 注 的 方式 。 之 所 以 采用 姓 与 名 分 开 
标注 的 规范 ,一 方面 是 为 了 便于 以 后 给 姓名 添加 词性 ， 
从 而 方便 统计 (人 民 日 报 》 当中 所 涵盖 的 姓氏 , 另 一 方 
而 也 便于 比较 NEPD 与 1998 年 人 民 日 报 语 料 中 词汇 
的 分 布 和 相应 的 实验 结果 。@@ 从 语义 的 组 合 性 上 和 懒 
用 性 方面 考虑 ,在 分 词 标注 的 过 程 中 将 成 语 看 作 完整 
的 词汇 ,但 对 于 字数 较 多 的 葡 后 语 . 惯 用 语 等 , 则 分 开 
标注 成 多 个 词 。@ 对 于 数 与 计量 单位 组 合 的 情形 , 统 
一 作 分 词 处 理 。 比 如 ,在 “个 性 化 地 掌握 每 一 名 持 证 残 
疾 人 的 基本 状况 "这 一 表述 中 ,“ 一 名 "这 一 数 词 与 量 
词 的 组 合 应 作词 切 分 ,具体 的 标注 结果 为 “个 性 化 /地 / 
掌握 /每 /一 /名 / 持 证 /残疾 人 /的 /基本 /状况 /”。 


5. NEPD 分 词 实验 及 性 能 测评 


J. Laffrtty 等 于 2001 年 提出 了 用 于 标注 和 切 分 序 
列 数据 的 条 件 概率 模型 , 即 条 件 随 机 场 模 型 。 为 测 
PF NEPD 的 分 词性 能 ,本 文 从 NEPD 语 料 中 将 2018 年 
1 月 的 语 料 单独 抽出 ,与 北京 大 学 1998 年 1 月 人 民 日 
报 语 料 做 分 词性 能 对 比 。 分 词 实验 利用 自行 封装 后 的 


条 件 随 机 场 开 源 工 具 包 CRF + + 0.58 Jg; CRF + + 
使 用 率 较 高 .可 用 性 较 强 ,特别 是 在 应 用 于 文本 处 理 时 
易 用 性 \ 准 确 率 、 使 用 稳定 性 及 通用 性 等 方面 均 表现 突 
出 ,并 且 CRF + + 的 可 移植 性 较 强 ,一 般 被 广泛 运用 在 
自然 语言 处 理 的 分 词 .命名 实体 识别 及 抽取 .语义 分 析 
等 方面 。 

通过 自行 开发 的 封装 了 CRF + +0.58 的 分 词 训 
练 和 测试 平台 ,首先 分 别针 对 1998 年 1 月 和 2018 年 1 
月 的 语 料 构建 自动 分 词 模型 ,对 比 它们 的 性 能 ,然后 选 
取 基 于 1998 年 1 月 语 料 所 构建 的 性 能 最 好 的 模型 去 
标注 2018 年 1 月 的 语 料 ,最 后 将 标注 结果 与 人 工 构建 
的 2018 ^E 1 月 的 语 料 进行 对 比 ,测评 分 词性 能 。 通 过 
上 述 过 程 ,一 方面 可 以 验证 所 构建 的 新 时 代 人 民有 日 报 
语 料 的 整体 性 能 , 男 一 方面 也 可 以 证 明 构 建新 时 代 人 
民 日 报 语料库 的 必要 性 。 
5.1 分 词 实 验 及 性 能 比较 的 思路 
首先 ,观察 所 训练 和 测试 的 语 料 , 根 据 语 料 表 现形 
式 等 特点 从 整体 上 设计 标记 符号 和 特征 模板 。 再 分 别 
对 所 选 语 料 进 行 相 应 的 标记 ,将 其 处 理 成 CRF + + 能 
够 识别 的 格式 。 选 取 特 征 并 对 这 些 特征 进行 组 合 , 构 
造成 为 相应 的 特征 模板 。 随 后 ,通过 CRF + + 工具 对 
被 选 作 训练 集 的 数据 及 特征 模板 进行 处 理 ,得 出 分 词 
模型 ,然后 对 已 被 同样 处 理 为 CRF + + 可 识别 格式 的 
测试 集 数 据 用 所 得 到 的 分 词 模型 进行 分 词 处 理 。 输 出 
结果 示例 如 表 3 所 示 : 

表 3 CRF 分 词 后 输出 结果 示例 


文本 语 料 训练 学 习 标 记 测试 输出 标记 
个 B B 
性 M M 
化 E E 
地 8 S 
a B B 
dg E E 
每 S S 
一 S S 
名 S S 
T B B 
证 E E 


最 后 是 模型 的 测评 及 优化 , 即 利 用 不 同 的 特征 模 
板 训 练 分 词 模 型 ,再 利用 所 得 到 的 模型 基础 上 完成 对 
测试 语 料 的 标注 ,并 通过 测评 指标 对 分 词性 能 进行 评 
测 。 分 词性 能 的 测评 指标 主要 由 精准 率 、 召 回 率 和 调 
和 平均 值 (F) 构 成 。 具 体 的 计算 公式 如 下 : 

精准 率 (P) = 标注 正确 的 标记 数 /标注 为 该 标记 
的 总 数 x 100% 
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召回 率 (R) = 标注 正确 的 标记 数 /应 标注 为 该 标 
记 的 总 数 * 100% 

调和 平均 值 (F) 2 (2 & P RJ/(P & R) *100% 

基于 上 述 公式 ,对 不 同 特征 进行 实验 ,得 到 相应 的 
测评 结果 ,观察 它们 之 间 的 差异 ,并 根据 结果 进行 特征 
组 合 ,最 终 得 到 分 词 效果 最 优 的 特征 选择 特征 模板 以 
及 对 应 的 分 词 模型 。 为 更 加 细致 和 全 面 地 评估 分 词 模 
型 的 性 能 ,不 仅 需要 评估 所 有 标记 的 标注 结果 ,还 需 评 
估 多 字 词 ( 由 两 个 或 两 个 以 上 汉字 构成 的 词汇 ) 中 的 
单一 标记 标注 结果 。 在 本 文 实验 中 ,主要 使 用 了 构成 
词 的 字 自身 这 一 单一 特征 ,不 涉及 音 ` 形 等 其 他 类 型 的 
特征 ,在 后 续 的 研究 中 可 以 增加 拼音 、 部 首 、 字 的 位 置 
等 不 同 的 特征 进行 分 词 实验 。 
Sam 模型 性 能 对 比 
| 一 为 构建 基于 条 件 随机 场 的 分 间 模 型 ,并 对 比 时 间 
IRR T" 20 年 的 新 旧 两 份 语 料 的 分 词性 能 ,首先 分 别 将 
2618 4: 1 月 和 1998 年 1 月 的 语 料 随机 分 为 10 等 份 ， 
再 组 照 1:9 的 比例 分 为 测试 数据 集 和 训练 数据 集 。 在 
特征 选择 上 ,为 更 加 相对 公平 地 对 比 基 于 两 个 不 同年 
做 玖 语 料 训练 得 到 的 模型 的 性 能 ,仅仅 使 用 构成 词 的 
党 各 身 的 特征 ,不 添加 其 他 任何 特征 。 不 同 的 标记 集 
合 的 数量 会 对 模型 的 性 能 具有 一 定 的 影响 ,根据 人 民 
夺 儿 语 料 中 词汇 字 长 的 分 布 情况 ,标记 集合 的 数量 选 
定 筋 4 ,因为 在 中 文 信息 处 理 的 序列 化 标注 任务 中 , 汉 
请 记 汇 以 字 为 衡量 单位 的 整体 长 度 集中 在 2 -3 之 间 ， 
所 跑 把 标记 数目 限定 为 4。 


:三 具体 标记 的 语义 如 表 4 所 示 : 


FT R4 ”训练 和 测试 标记 含义 
taf 
标记 名 称 标记 含义 


B 表示 词 的 第 一 个 字 


B 
M M 表示 词 中 间 的 字 , 并 且 M 可 依据 词 的 长 度 进行 无 限制 使 用 
E 
S 


E 表示 词 的 最 后 一 个 字 
S 表示 单字 词 字 ( 随 着 汉语 词汇 的 发 展 ,虽然 目前 双 字 词 或 多 字 
词 为 主 ,但 仍 有 一 定量 的 单字 词 , 并 且 绝 大 部 分 单字 词 的 使 用 频 
率 相对 较 高 ) 

在 语 料 的 训练 和 测试 集中 ,标记 置 于 所 有 语 料 的 
最 后 一 列 。 利 用 CRF + + 处理 训练 数据 集 后 ,可 以 得 
到 分 词 模型 ,再 利用 所 得 到 的 分 词 模型 对 测试 数据 集 
进行 处 理 , 向 测试 集 输 出 并 添加 特征 标记 序列 。 在 测 
试 语 料 结果 中 ,所 输出 的 标记 序列 同样 也 放置 在 测试 
数据 集 的 最 后 一 列 , 并 根据 标记 的 构成 情况 将 字 组 成 
词 ,从 而 实现 对 1998 年 1 月 和 2018 年 1 月 人 民 日 报 语 
料 的 分 词 。 为 了 便于 比较 2018 年 1 月 和 1998 年 1 月 
两 份 语 料 的 效果 ,后续 所 用 的 实验 所 使 用 的 标记 和 特 


H 


征 模 板 均 是 相同 的 。 

基于 条 件 随 机 场 模 型 ,从 1998 年 1 月 人 民 日 报 语 
料 和 新 构建 的 2018 年 人 民 日 报 语 料 中 选取 不 同 的 等 
份 ,按照 上 述 流程 ,构建 得 到 多 个 分 词 模型 ,并 评测 对 
应 的 精确 率 、 召 回 率 、 调 和 平均 值 ,分 别 得 到 10 个 分 词 
模型 ,它们 在 测试 语 料 上 的 整体 性 能 见 表 5 与 表 6。 
表 5 1998 年 1 月 人 民 日 报 语 料 的 整体 性 能 


gru 评测 对 象 精准 率 召回 率 ” ”调和 平均 值 
(96) (96) (96) 
模型 1 B 97. 14 98.28 97.71 
E 97.20 98.34 97.76 
M 94.44 92.13 93.27 
S 97.62 95.67 96. 64 
所 有 标记 97. 10 97. 10 97. 10 
模型 2 B 97.17 98.40 97.78 
E 97.13 98.36 97.74 
M 94. 69 92.63 93.65 
S 97.75 95.50 96.61 
所 有 标记 97.13 97.13 97.13 
模型 3 B 97.17 98.36 97.76 
E 97.15 98.34 97.74 
M 94. 75 92.65 93.69 
S 97.66 95.53 96.58 
所 有 标记 97.12 97.12 97.12 
模型 4 B 97. 02 98.23 97.62 
E 96.99 98.20 97.59 
M 94. 50 92.20 93.34 
S 97.52 95.46 96.48 
所 有 标记 96. 97 96. 97 96.97 
模型 5 B 97.13 98.35 97.73 
E 97.13 98.35 97.74 
M 94. 55 92.34 93.43 
S 97.76 95.57 96. 65 
所 有 标记 97.12 97.12 97.12 
模型 6 B 97.31 98.37 97.83 
E 97.20 98.26 97.73 
M 94. 53 92. 60 93.55 
S 97.67 95.78 96.71 
所 有 标记 97.18 97.18 97.18 
模型 7 B 97.18 98.35 97.76 
E 97.18 98.35 97.76 
M 94. 40 92.27 93.33 
S 97.70 95.60 96. 64 
所 有 标记 97.12 97.12 97.12 
模型 8 B 97.24 98.36 97.79 
E 97.13 98.24 97.68 
M 94.39 92.70 93.54 
S 97.80 95.74 96. 76 
所 有 标记 97.15 97.15 97.15 
模型 9 B 97.15 98.37 97.76 
E 97.11 98.33 97.72 
M 94.58 92.48 93.52 
S 97.66 95.46 96.54 
所 有 标记 97.09 97.09 97.09 
模型 10 B 97.15 98.26 97.70 
E 97.05 98.16 97.60 
M 94.32 92.41 93.36 
S 97.50 95.53 96. 50 
所 有 标记 97.01 97.01 97.01 
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从 所 有 标记 的 调和 平均 值 的 结果 来 看 ,基于 1998 ( 续 表 6) 

年 1 月 人 民 日 报 语 料 所 构建 的 分 词 模型 最 好 性 能 达到 y LLL, PPE BRR 。 调和 平均 值 
了 97.18% ,而 所 训练 的 10 个 模型 的 平均 调和 平均 什 i E 
为 97. 10% 。 在 具体 的 分 词 标记 上 ,多 字 词 的 首 字 调和 7 : OMS Es 
平均 值 最 高 性 能 达到 了 97. 7996 ,平均 调和 平均 值 为 "UN 
97.7496 ;多 字 词 的 中 间 字 最 高 调和 平均 值 为 93. 6996 , s 97.78 97.54 97.66 
平均 调和 平均 值 为 93.47% ;多 字 词 的 尾 字 调和 平均 所 有 标记 97.73 97.73 97. 73 
值 最 高 为 97.76% ,平均 调和 平均 值 为 97.71% 。 从 多 模型 7 B 98.05 99.09 98.57 
字 词 的 3 个 标记 的 整体 性 能 看 ,中 间 字 的 性 能 影响 了 . E 
整个 多 字 词 的 调和 平均 值 ,因为 中 间 字 的 召回 率 整体 ' DD D 
性 能 较 差 ,最 低 的 召回 率 仅 为 93.27% 。 跨 度 比较 大 的 所 有 标记 97.78 97.78 97.78 
多 字 词 导致 了 这 一 问题 。 比 如 “ 沙 曼 :… 维 雅 吉 ”, 这 是 模型 8 B 97.99 99. 07 98. 53 
一 个 人 名 ,本 来 是 一 个 词 ,但 在 所 构建 的 模型 中 被 识别 
成 了“ 沙 曼 : 维 雅 " 和 “ 吉 ” 两 个 词 。 单 字 词 的 最 高 调 li K EA 
RED 96.76% SEYIWERDE DS 9.61%, "A nn 
MERE Seis ME He HE RON Te HR RERE 。 gos d a 
布 弹 为 均匀 ,在 一 定 程度 上 确保 了 整个 分 词 模 型 的 性 E 97.96 98.96 98. 46 
能 较为 突出 o M 95.22 86. 88 90. 86 
D 表 6 2018 年 1 月 人 民 日 报 语 料 的 整体 性 能 i ME NU 
所 有 标记 97.80 97.80 97.80 
评测 对 象 pd sion 模型 10 B 98.01 99. 05 98. 53 
B 98. 08 99. 09 98. 58 £ did in RR 
a "d dis M M 94. 99 86. 46 90. 53 
M 95.28 86. 43 90. 64 * "ees aon TIR 
s 97.85 97.70 97.78 _ ç Bisrisid iis uiis ie 

所 有 标记 97.80 97.80 97. 80 基于 新 构建 的 2018 年 1 月 人 民 日 报 语 料 , 在 对 所 

. 上 nw 有 标记 进行 评测 的 基础 上 ,最 优 模型 的 调和 平均 什 达 

b M 95.06 86. 82 90. 75 到 了 97. 80% , [LE T- 1998 年 1 月 所 构建 的 最 优 模型 

s 97.76 97.49 97.62 高 出 了 0. 62% 。 所 有 标记 模型 的 平均 调和 平均 值 达 

所 有 标记 97.73 97.73 97.73 到 了 97.74% , 比 1998 年 1 月 所 有 模型 的 平均 调和 平 

模型 3 28.03 Me 28-93 均值 高 出 了 0.63% 。 在 多 字 词 的 首 字 上 ,最 高 调和 平 

i s Pl 2 均值 为 98.59% ,平均 调和 平均 值 为 98. 54% , 比 1998 

TN pu p 年 1 月 的 首 字 平均 调和 平均 值 高 出 0.8% ;多 字 词 的 中 

所 有 标记 "T Bod Bro 间 字 的 最 高 调和 平均 值 达到 了 90. 8696 ,平均 调和 平 

模型 4 B 98.01 99.04 98.52 均值 为 90. 64% , tk 1998 年 1 月 的 中 间 字 平均 调和 平 

E 97.87 98.91 98.39 均值 低 了 2.8396 ;多 字 词 的 尾 字 最 高 调和 平均 值 为 

M 94.90 86.39 90. 45 98.46% ,平均 调和 平均 值 为 98.41% , E; 1998 年 1 月 

MUN ED CUE o 的 尾 字 平 均 调和 平均 值 高 出 0.70%。 从 历时 对 比 上 

-" i 看, 条件 随机 场 模型 在 中 间 字 的 识别 方面 的 性 能 降低 

ys ww «x 是 由 于 词汇 长 度 跨度 增 大 造成 的 。 在 单字 词 的 识别 性 

M 94.99 86. 36 90. 47 能 上 ,最 高 的 调和 平均 值 达到 了 97. 7896 ,平均 调和 平 

s 97.75 97.52 97.64 均值 为 97.68% , 比 1998 4E 1 月 的 单字 词 识别 性 能 分 

所 有 标记 97.67 97.67 97.67 别 高 出 了 1.01% 80 1. 1796 , 
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为 从 模型 性 能 的 角度 说 明 构建 新 时 代 人 民 日 报 语 
料 的 必要 性 ,可 以 从 基于 1998 年 1 月 语 料 所 构建 的 10 
个 模型 中 选取 调和 平均 值 最 高 的 模型 依次 去 标注 
2018 年 1 月 的 10 个 测试 语 料 。 得 到 的 分 词 标 注 结果 
如 表 7 所 示 : 
表 7 1998 年 1 月 最 优 模型 性 能 验证 
精准 率 召回 率 ” 调和 平均 值 


模型 评测 对 象 (96) (96) (46) 
模型 1 B 84.39 92.00 88. 03 
E 83. 78 91.33 87.39 

M 69. 65 32.03 43. 88 

S 83.31 82.42 82. 86 

所 有 标记 83.21 83.21 83.21 

模型 2 B 84.47 91.79 87.98 
E 83. 96 91.23 87. 44 

M 68.95 31.77 43.50 

S 82. 96 82.87 82.91 

所 有 标记 83.17 83.17 83.17 

B 84.55 91.79 88. 02 

E 83. 94 91.13 87.39 

M 68. 96 32.3] 44. 06 

S 83.18 82.50 82.84 

所 有 标记 83. 26 83. 26 83.26 

B 84.38 91.74 87.91 

E 83. 76 91.06 87.26 

M 68. 64 32.12 43. 76 

S 83.15 82.43 82. 79 

所 有 标记 83.11 83.11 83.11 

B 84. 24 91.82 87.87 

E 83. 76 91.31 87.37 

M 70.28 31.52 43.53 

S 82. 72 82.60 82. 66 

所 有 标记 83.03 83.03 83.03 

B 83. 89 91.87 87. 70 

E 83. 40 91.33 87.18 

M 70.43 30. 92 42.97 

& S 82.81 82. 66 82.74 
所 有 标记 82.81 82.81 82.81 

模型 7 B 84. 46 92.02 88.08 
E 83. 94 91.44 87.53 

M 70.71 31.80 43.87 

S 82.97 82.94 82. 96 

所 有 标记 83.25 83.25 83.25 

模型 8 B 83.75 90.81 87. 14 
E 83. 83 90. 89 87.22 

M 69. 64 32.17 44.01 

S 82.22 82.42 82.32 

所 有 标记 82.71 82.71 82.71 

模型 9 B 84.07 91.86 87. 79 
E 83. 47 91.21 87.17 

M 70.45 30.77 42.83 

S 82.81 83.10 82.95 

所 有 标记 82.90 82.90 82.90 

模型 10 B 84.43 91.83 87.97 
E 83. 84 91.18 87.36 

M 69.32 32.01 43. 80 

S 83.14 82. 68 82.91 

所 有 标记 83.18 83.18 83.18 


从 表 7 可 以 看 出 ,基于 1998 ^E 1 月 语 料 构建 的 最 
优 标注 模型 在 2018 年 1 月 语 料 上 所 取得 的 标注 结果 
与 表 6 基于 2018 年 1 月 语 料 所 构建 的 分 词 模型 整体 
性 能 差距 非常 大 。 所 有 标记 的 最 高 调和 平均 值 为 
83.26% ,平均 调和 平均 值 仅 达到 了 83. 06% , 比 基 于 
2018 年 1 月 语 料 所 构建 模型 分 别 低 了 14. 5496 、 
14. 6896 ,性 能 指标 之 所 以 出 现 这 么 大 的 差异 ,根本 原 
因 是 基于 20 年 前 的 语 料 所 训练 出 来 的 模型 在 词汇 的 
覆盖 度 和 新 蜂 性 上 已 经 不 能 完成 对 当前 文本 的 精准 标 
注 。 这 也 说 明 ,1998 年 人 民 日 报 语 料 已 不 适合 用 于 处 
理 当前 的 最 新 汉语 文本 ,如 果 要 对 当前 文本 进行 自动 
分 词 ,有 必要 采用 NEPD 这 样 的 基于 当前 文本 的 新 语 
料 。 另 外 ,在 多 字 词 的 中 间 字 的 识别 方面 ,基于 20 年 
前 语 料 所 构建 的 模型 的 性 能 更 差 ,最 优 调和 平均 值 仅 
为 44. 06% , 而 平均 调和 平均 值 也 仅 为 43. 62% ,与 基于 
2018 年 1 月 语 料 所 构建 的 模型 相 比 分 别 低 了 46. 8096 
和 47.02% 。 这 一 指标 表明 ,基于 1998 年 1 月 语 料 所 
构建 的 模型 用 于 对 2018 年 1 月 语 料 的 自动 分 词 时 不 
能 解决 较 长 词汇 的 精准 分 词 问 题 。 

上 述 实验 数据 从 技术 指标 方面 充分 证 明了 构建 新 
时 代 人 民 日 报 语 料 的 必要 性 。 


在 分 析 了 目前 已 有 汉语 通用 分 词语 料 的 基础 上 ， 
本 文 给 出 了 所 构建 的 新 时 代 人 民 日 报 分 词语 料 即 
NEPD 的 数据 来 源 、 清 洗 过 程 、 标 注 规范 和 标注 流程 ， 
并 从 NEPD 中 选取 2018 年 1 月 的 人 民 日 报 语 料 , 通 过 
条 件 随机 场 从 两 个 维度 验证 了 所 构建 语 料 的 整体 性 
能 , 既 证 明了 NEPD 性 能 突出 ,也 说 明了 构建 该 语 料 的 
必要 性 。NEPD 可 以 弥补 北京 大 学 人 民 日 报 语 料 用 于 
处 理 当 前 文本 时 的 不 足 。NEPD 的 构建 一 方面 解决 了 
目前 该 类 分 词语 料 陈旧 、 过 时 的 问题 ,从 历时 的 角度 实 
现 了 对 已 有 人 民 日 报 语 料 的 延续 和 有 效 扩充 , 男 一 方 
面 NEPD 可 以 为 开发 新 的 高 性 能 的 命名 实体 识别 模 
型 精准 语义 检索 系统 和 浅 层 句法 分 析 器 提供 有 力 的 
资源 支撑 。 后 续 的 研究 应 注重 继续 扩大 分 词语 料 的 规 
模 ,并 进一步 提升 语 料 的 精度 。 
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Construction, Performance and Application of New Era People' s Daily Segmented Corpus (I) 
— — Construction and Evaluation of Corpus 
Huang Shuiqing^ Wang Dongbo'” 
' College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095 


SN ? Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095 

P Abstract. [ Purpose/significance | The construction of the segmented corpus of People’ s Daily in line with the new 
edrovides new annotated corpus for Chinese information processing, and also offers new language resources for analyzing 
módém Chinese from a diachronic perspective. [ Method/ process ] The data source, annotation specification and process 
of 4 


othez hand, the corpus performance was evaluated by constructing the automatic word segmentation model by comparing 


constructed corpus were explained on the basis of analyzing the existing Chinese word segmentation corpus, on the 


with the existing corpus. [ Result/conclusion | The New Era People’ s Daily Segmented Corpus( NEPD) with a large scale 
and a long time span follows the basic processing standards of modern Chinese corpus. The part of January 2018 is selected 
from NEPD to build a segmentation model based on conditional random field model. The performance of the corpus of Peo- 
ple’ s Daily in January 2018 is evaluated and compared with that of the corpus of People’ s Daily in January 1998. The 
specific evaluation indexes obtained from the corpus show that the overall performance of the corpus of People' s Daily in 
the new era is relatively outstanding. The corpus of 1998 could not be replaced, but it is very necessary to construct the 
NEPD. 

Keywords: new era People’s Daily automatic word segmentation conditional random field model segmented 


corpus NEPD 
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